推理模型

Mamba 架构实现推理性能超 Gemma3-27B!推理模型开始迈入「无注意力」时代

推理大模型中的注意力机制可以去掉吗?这是当下最具挑战性的开放问题之一。过去半年,伴随长思维链的爆火,模型在复杂推理任务中普遍需要生成成千上万的 tokens 才能产出高质量解答。然而,这也与 Transformer 架构天然矛盾:随着生成长度的增长,Atten

推理 架构 推理模型 mamba mamba架构 2025-06-07 12:58  9

Poe春季报告:DeepSeek使用率下降一半

5月14日,全球最大的大模型整合应用平台Poe发布数据显示,中国大模型公司深度求索的DeepSeek-R1模型使用率,已由2月的峰值下降了50%,但目前仍处于推理模型分类中的第三位。而快手团队的可灵(Kling系列)大模型,则在视频生成模型分类中迅速登顶,占据

模型 deepseek 推理模型 poe poe春季 2025-05-15 10:04  15